Ce qu'il faut savoir sur les fichiers robots.txt

Toute personne qui crée un site Internet rencontre tôt ou tard l’expression “robots.txt“. Ce fichier texte communique aux robots d’exploration des moteurs de recherche quelles zones d’un domaine peuvent être explorées ou non.

D’une façon générale, la création et le positionnement adéquat d’un fichier robots.txt sont loin d’être impossibles, à condition cependant que votre répertoire Web soit structuré de façon logique. Dans cet article, nous vous expliquons comment créer un fichier robots.txt et les points sur lesquels il faut rester vigilant.

Le fichier robots.txt est un petit fichier texte créé très simplement à l’aide d’un éditeur de texte puis téléchargé dans le répertoire racine (root) d’un site Internet. La plupart des robots d’exploration Internet s’en tiennent au Protocole d’exclusion des robots. Celui-ci stipule que les robots des moteurs de recherche (également appelés user agents) cherchent tout d’abord un fichier intitulé robots.txt dans le répertoire racine et lisent les instructions qu’il contient avant de procéder à l’indexation. Les webmasters créent un fichier robots.txt afin de pouvoir contrôler plus facilement quelles zones du site peuvent être explorées par les robots ou non.

Dans le fichier robots.txt, vous définissez des instructions destinées aux user agents de Google. Ceux-ci peuvent être des navigateurs, mais également des robots (robot d’indexation) d’un moteur de recherche. Les user agents les plus répandus sont Googlebot, Googlebot-Image (recherche d’images Google), Adsbot-Google (Google AdWords), Slurp (Yahoo) et bingbot (Bing).

Élaboration d’un fichier robots.txt

Les saisies dans le fichier robots.txt se font en deux étapes. Dans l’exemple ci-dessous, elles apparaissent sur deux lignes, mais il peut y avoir plus de lignes, en fonction du nombre de règles et de user agents. Dans la partie supérieure, vous vous adressez au user agent à l’aide de noms. En dessous, vous l’invitez à réaliser une action.

L’instruction suivante permet par exemple d’ordonner au Googlebot de ne pas explorer uniquement le répertoire /cms/ :

User-agent: Googlebot
Disallow: /cms/

Si cette instruction est valable pour l’ensemble des robots d’exploration, la syntaxe sera la suivante :

User-agent: *
Disallow: /cms/

Lorsque vous souhaitez vous assurer que l’ensemble de votre présence sur Internet est ignoré, et non plus seulement certaines zones de votre site, il vous suffit d’écrire un slash :

User-agent: *
Disallow: /

S’il s’agit seulement d’exclure une sous-rubrique ou une image spécifique (dans le cas présent un fichier exemple nommé imageexemple), tapez :

User-agent: Googlebot
Disallow: /fichierexemple.html
Disallow: /images/imageexemple.jpg

Si toutes les images contenues sur votre site sont de nature privée et doivent être exclues, vous pouvez alors utiliser le caractère dollar : le caractère $ sert de caractère de remplacement pour une règle de filtrage qui s’ajoute à la fin d’une chaîne de caractères. Le robot d’exploration n’indexe aucun contenu qui se termine par cette chaîne de caractères. Tous les fichiers .jpg peuvent donc être exclus de la manière suivante :

User-agent: *
Disallow: /*.jpg$

Il existe également une solution pour le cas où un répertoire est verrouillé, mais l’un des sous-répertoires qu’il contient doit être partagé pour l’indexation. Il vous suffit de compléter le code avec les lignes suivantes :

User-agent: *
Disallow: /shop/
Allow: /shop/magazine/

Si vous voulez exclure les annonces AdWords de l’indexation naturelle, vous pouvez inclure une exception dans le code.

User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /

Astuce : dans le fichier robots.txt, le sitemap.XML doit également être référencé afin d’informer les robots d’exploration de la structure URL d’un site Internet. Cette référence peut avoir l’apparence suivante :

UserAgent: *
Disallow:
Sitemap: http://[www.monsite.fr]/sitemap.xml

Utiliser des fichiers robots.txt avec des wild cards

Il est vrai que le Protocole d’exclusion des robots n’autorise aucune expression régulière (wild cards) au sens strict, cependant il peut reconnaître deux caractères de remplacement pour les fils d’Ariane ou chemins de navigation :

Les caractères * et $.

Ces caractères sont utilisés avec la directive disallow afin d’exclure des sites Internet entiers ou certains fichiers et répertoires.

Le caractère * est un caractère de remplacement pour les chaînes de caractères (strings) qui suivent ce caractère. Lorsque vous supportez la syntaxe des wild cards, les robots d’exploration n’indexent pas les sites Internet qui contiennent cette chaîne de caractères. En ce qui concerne le user agent, cela signifie que la directive est valable pour tous les robots d’exploration – même lorsqu’aucune chaîne de caractères n’est saisie.

Astuce : Si les wild cards et la programmation sont des aspects complètement nouveaux pour vous et que tout cela vous paraît trop compliqué, vous pouvez tout simplement utiliser le générateur de fichiers robots.txt de Ryte pour élaborer votre fichier robots.txt.

Le bon fonctionnement d’un fichier robots.txt repose sur des conditions préalables essentielles. Avant de mettre le fichier en ligne, vérifiez impérativement que celui-ci respecte les règles de bases suivantes :

Le fichier robots.txt se situe sur le premier niveau de répertoire. L’URL du fichier robots.txt du site http://www.domaineexemple.fr devrait donc être : http://www.domaineexemple.fr/robots.txt
La fin d’une extension de fichier est marquée à l’aide du caractère dollar ($).
Par défaut, le fichier est sur « allow ». Lorsque vous souhaitez bloquer certaines zones, vous devez les baliser avec « disallow ».
Les instructions sont sensibles à la casse, ce qui signifie que les lettres majuscules et minuscules sont différenciées. Plusieurs règles sont toujours séparées par une ligne vierge.

Soumettre un fichier robots.txt à Google

Dans l’éditeur de fichiers robots.txt, cliquez sur « Envoyer » en bas à droite. Une fenêtre de dialogue s’affiche. Téléchargez-y le code robots.txt édité par la page de testeur en sélectionnant « Télécharger ».

Vous devez télécharger le nouveau fichier robots.txt dans votre répertoire racine. Vous pouvez ensuite vérifier si le fichier est exploré par Google en cliquant sur le bouton « Voir les fichiers robots.txt disponibles immédiatement ». Ainsi, vous informez simultanément Google que le fichier robots.txt a été modifié et qu’il doit maintenant être exploré.

Corriger les erreurs dans un fichier robots.txt

Si le fichier robots.txt existe déjà, faites défiler le code afin de vérifier la présence d’alertes de syntaxe ou d’erreurs logiques.

Dans le testeur s’affiche une zone de texte dans laquelle vous pouvez saisir l’URL de l’une des pages de votre site avant de cliquer sur « Tester ».

Vous pouvez tout d’abord sélectionner le user agent que vous souhaitez simuler dans la liste déroulante située à droite de cette zone. Par défaut, l’item sélectionné dans le menu est « Googlebot ».

Une fois le test terminé, si l’expression « Autorisé » s’affiche, la page peut être indexée. Au contraire, si le résultat du test est « Bloqué », cela signifie que l’URL que vous avez saisie a été bloquée pour les robots d’exploration de Google. Lorsque le résultat ne correspond pas à vos attentes, corrigez l’erreur dans le fichier puis réalisez le test une nouvelle fois. Éditez toujours le fichier robots.txt sur votre site : il est impossible de réaliser des modifications directement sur le testeur.

Conclusion

Une programmation correcte et un emplacement adéquat du fichier robots.txt sont essentiels pour l’optimisation technique de votre site pour les moteurs de recherche. La moindre erreur de syntaxe peut conduire à une action non désirée de la part du user agent. Les pages que vous souhaitez exclure seront alors explorées ou inversement.

Réfléchissez bien si vous souhaitez vraiment exclure certaines pages à l’aide d’un fichier robots.txt. Vos instructions sont seulement considérées par les robots d’exploration comme des directives qui peuvent éventuellement ne pas être respectées comme prévu. En outre, le fichier robots.txt peut être lu de façon erronée par certains robots d’exploration qui imposent une syntaxe particulière. Utilisez les astuces mentionnées ci-dessus pour effectuer régulièrement des contrôles et vérifier que le fichier est toujours accessible.